اکتساب مهارت در یادگیری تقویتی رباتیک توسط عاملهای خودمختار

پایان نامه
چکیده

یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال های تقویتی است که از محیط دریافت می کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می شود. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده تر شدن محیط، تعداد وضعیت های مورد اکتشاف و پارامترهای تصمیم گیری افزایش پیدا می کند. تمامی این مسائل، اکتشاف را رویکردی زمان بر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راه کار مورد پژوهش محققان در این حوزه، یادگیری کیفی است. در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه می شود و خصوصیات و اجزا آن معرفی می گردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آن چنان است که قابل تنظیم و انطباق با الگوریتم های مختلف، محیط های گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است.

منابع مشابه

اکتساب مهارت در یادگیری تقویتی با استفاده از مدل های آماری خوشه بندی گراف

یادگیری تقویتی با مسئله یادگیری عامل هوشمند برای انتخاب اعمال به منظور بیشینه کردن کارایی عامل سروکار دارد. استفاده از مهارت ها در یادگیری تقویتی، سبب سرعت بخشیدن به کارکرد عامل می شود. یافتن اهداف میانی و ایجاد مهارت برای دست یابی به آنها، مسئله ای کلیدی در کشف خودکار مهارت می باشد. با کشف اهداف میانی و تعیین تابع سیاست دست یابی به آنها، عامل قادر به اکتشاف موثرتر ویادگیری سریع تر در کارهای دی...

15 صفحه اول

تاثیر بازخورد مقایسه ای - اجتماعی بر اکتساب و تحکیم یادگیری یک مهارت ادراکی- حرکتی

پژوهش حاضر با هدف تعیین تاثیر بازخورد مقایسه ای-اجتماعی بر اکتساب و تحکیم یادگیری یک مهارت ادراکی-حرکتی در دانش آموزان پسر دبیرستانی انجام شد. در این تحقیق تعداد 36 دانش آموز دبیرستانی به عنوان نمونه های آماری بصورت تصادفی در سه گروه 12 نفری بازخورد مقایسه-اجتماعی مثبت، منفی و واقعی قرار گرفتند. پس از ثبت امتیازات پیش آزمون، در مرحله اکتساب که پنج روز به طول انجامید آزمودنی ها در هر روز تعداد د...

متن کامل

اثر یادگیری قیاسی، آشکار و ترکیبی بر اکتساب، یادداری و انتقال مهارت حرکتی پیچیده

هدف از پژوهش حاضر، مقایسۀ اثر یادگیری قیاسی، آشکار و ترکیبی بر اکتساب، یادداری و انتقال مهارت پرتاب آزاد بسکتبال بود. بدین‌منظور، 48 دانش‌آموز دختر 17ـ15 سال به‌‌صورت تصادفی انتخاب شدند و بر‌اساس نمرات آزمون بارفیکس اصلاح‌شده به چهار گروه همگن 12 نفره تقسیم گردیدند و به‌شکل تصادفی، تحت شرایط تمرینی مختلف (قیاسی، آشکار، آشکار ـ قیاسی و قیاسی ـ آشکار) قرار گرفتند. شرکت‌کنندگان پس از دو جلسه آشنای...

متن کامل

تولید قواعد فازی احتمالی به‌کمک یادگیری تقویتی

مهم‌ترین بخش در یک سیستم فازی پایگاه قواعد آن است. یکی از مشکلات موجود در تولید قواعد فازی با داده‌های آموزشی، وجود داده‌های ناسازگار است زیرا در این‌گونه داده‌ها چند خروجی برای وضعیت‌های یکسان وجود دارد. لذا تولید قواعد و تصمیم‌گیری برای انتخاب تالی مناسب برای هر قاعده با چالش همراه خواهد بود. روش‌های موجود از برآیند حالت‌های ناسازگار استفاده می‌کنند که باعث تولید خروجی با مقدار میانگین تالی‌ه...

متن کامل

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

متن کامل

تاثیر رنگ زمینه بر اکتساب و یادداری مهارت پرتاب دارت

مقدمه و هدف: با توجه به اینکه اجراهای ورزشی در محیط با رنگ­های مختلف انجام می­شود و تأثیرگذاری رنگ بر اجرای مهارت ورزشی تا حدودی مورد پذیرش واقع شده است، هدف از این پژوهش بررسی تأثیر رنگ­های زمینه منتخب بر اکتساب و یادداری مهارت پرتاب دارت بود. روش شناسی: در این مطالعة نیمه تجربی از نوع کاربردی، از بین تمامی دانشجویان پسر دانشگاه فردوسی که شرایط ورود به تحقیق را داشتند 72 نفر به صورت تصادفی انت...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی شاهرود - دانشکده کامپیوتر و فناوری اطلاعات

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023